【知识积累】特征数和样本数
参考:https://www.jianshu.com/p/dce9f1af7bc9
- LR 样本数远小于特征数问题 当样本数量较少时,则二分类在高维空间必然是线性可分的,而LR是凸优化,即其目标函数在存在极小值的时候,认为模型是收敛的。而当数据为线性可分的时候,对于任何通过凸优化求解的model来说,意味着不存在收敛值,模型会沿着直线一直优化,最终导致的是系数无限发散,而模型效果出现过拟合(即auc为1)的情况~~
参考:https://www.jianshu.com/p/dce9f1af7bc9